| Hierarchisch Variable | Beutel | Objektkategorie |
| Daten | Murmel | Exemplare |
| Merkmale | Farbe | Form, Farbe, Textur, Größe, etc. |
| Merkmalswerte | Binär | Kategorisch |
An Introduction to HBMs and their Application to Category Learning”
Wiederholtes Ziehen von schwarzen und weißen Murmeln aus verschiedenen Murmelbeuteln
Welche Farbe ist für die nächste Murmel im achten Murmelbeutel am wahrscheinlichsten?
\(\rightarrow\) Hohe Wahrscheinlichkeit, dass die nächsten Murmeln ebenfalls schwarz sind
Hierarchische Struktur
Zielsetzung
Entwicklung eines Bayesianisches-Modell, das menschliche Schlussfolgerung über Farbverteilungen zwischen Murmelbeuteln rekonstruiert kann (reverse-engineering).
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Level 1 – Daten
\(d_i: \big\{y_i, n_i \big\}\)
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Level 1 – Daten
\(d_i: \big\{y_i, n_i \big\}\)
Level 2 – Beutelspezifische Verteilung
\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Level 1 – Daten
\(d_i: \big\{y_i, n_i \big\}\)
Level 2 – Beutelspezifische Verteilung
\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Level 1 – Daten
\(d_i: \big\{y_i, n_i \big\}\)
Level 2 – Beutelspezifische Verteilung
\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)
Level 3 – Allgemeines Wissen über Murmelbeutel
\(\theta_i \sim \text{Beta}(\alpha, \beta)\)
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Level 1 – Daten
\(d_i: \big\{y_i, n_i \big\}\)
Level 2 – Beutelspezifische Verteilung
\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)
Level 3 – Allgemeines Wissen über Murmelbeutel
\(\theta_i \sim \text{Beta}(\alpha, \beta)\)
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Level 1 – Daten
\(d_i: \big\{y_i, n_i \big\}\)
Level 2 – Beutelspezifische Verteilung
\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)
Level 3 – Allgemeines Wissen über Murmelbeutel
\(\theta_i \sim \text{Beta}(\alpha, \beta)\)
Level 4 – Hyperparameter
\(\frac{\alpha}{\alpha + \beta} \sim \text{Unif}(0, 1)\)
\(\alpha + \beta \sim \text{Exp}(1)\)
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Level 1 – Daten
\(d_i: \big\{y_i, n_i \big\}\)
Level 2 – Beutelspezifische Verteilung
\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)
Level 3 – Allgemeines Wissen über Murmelbeutel
\(\theta_i \sim \text{Beta}(\alpha, \beta)\)
Level 4 – Hyperparameter
\(\frac{\alpha}{\alpha + \beta} \sim \text{Unif}(0, 1)\)
\(\alpha + \beta \sim \text{Exp}(1)\)
Wir ziehen aus \(i\) Murmelbeuteln, wobei \(y_i\) die Anzahl an gezogenen schwarzen Murmel und \(n_i\) die ingesamt gezogenen Murmeln repräsentiert.
Level 1 – Daten
\(d_i: \big\{y_i, n_i \big\}\)
Level 2 – Beutelspezifische Verteilung
\(y_i ~ \big| ~ n_i \sim \text{Binom}(\theta_i)\)
Level 3 – Allgemeines Wissen über Murmelbeutel
\(\theta_i \sim \text{Beta}(\alpha, \beta)\)
Level 4 – Hyperparameter
\(\frac{\alpha}{\alpha + \beta} \sim \text{Unif}(0, 1)\)
\(\alpha + \beta \sim \text{Exp}(1)\)
Anwendung von Bayes-Formel bei hierarchischen Modellen
\[ \begin{gathered} \overbrace{P(\theta, \alpha, \beta ~ | ~ y)}^{\text{Posterior}} \propto \underbrace{P(\alpha, \beta)}_{\text{Hyperprior}} \overbrace{P(\theta ~ | ~ \alpha, \beta)}^{\text{Conditional Prior}} \underbrace{P(y ~ | ~ \theta, \alpha, \beta)}_{\text{Likelihood}} \end{gathered} \]
Posterior Inferenz bezüglich \(\theta_i\) durch Integration über \(\alpha\) und \(\beta\)
\[ \begin{align*} P(\theta_i ~ | ~ d_1, \dots, d_n) = \iint P(\theta_i ~ | ~ \alpha, \beta, d_i) P(\alpha, \beta ~ | ~ d_1, \dots, d_n) \,d\alpha \,d \beta \end{align*} \]
Das Murmelbeispiel zeigt, dass HBMs gut mit unserer Intuition übereinstimmen, wie hierarchisch strukturierte Daten genutzt werden können, um Generalisierungen (overhypotheses) zu bilden.
Wieso ist das wichtig?
Diese Abstrakte Wissen ermöglicht schnelles Lernen aus nur wenigen Daten sowie One-Shot-Generalisierung.
Szenario: Eine Mutter zeigt auf einen unbekannten Gegenstand und sagt zu ihrem Kind, dass dies ein Stift sei.
Frage
Anhand welcher Merkmale verallgemeinern Kinder das Konzept „Stift“ und erkennen zukünftige Exemplare eines Stifts als solchen an?
Shape Bias
Die Erwartung, dass Mitglieder einer Kategorie tendenziell eine ähnliche Form haben.
Murmel-Beispiel
|
Form-Beispiel
|
|
|---|---|---|
| Hierarchisch Variable | Beutel | Objektkategorie |
| Daten | Murmel | Exemplare |
| Merkmale | Farbe | Form, Farbe, Textur, Größe, etc. |
| Merkmalswerte | Binär | Kategorisch |
Level 1: Binäre Beobachtungen \(\rightarrow\) Kategoriale Beobachtungen
Level 2: Binomialverteilung \(\rightarrow\) Multinomialverteilung
Level 3: Beta-Prior \(\rightarrow\) Dirichlet-Prior
Level 4: Hyperprior wie zuvor
Kopie von Level 2–4 für jede Merkmalsdimension (Farbe, Form, Textur, Größe)
1
|
2
|
3
|
4
|
|||||
|---|---|---|---|---|---|---|---|---|
| Kategorie | 1 | 1 | 2 | 2 | 3 | 3 | 4 | 4 |
| Form | 1 | 1 | 2 | 2 | 3 | 3 | 4 | 4 |
| Textur | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| Farbe | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| Größe | 1 | 2 | 1 | 2 | 1 | 2 | 1 | 2 |
'Dax'
|
Objekt 1
|
Objekt 2
|
Objekt 3
|
|
|---|---|---|---|---|
| Kategorie | 5 | ? | ? | ? |
| Form | 5 | 5 | 6 | 6 |
| Textur | 9 | 10 | 9 | 10 |
| Farbe | 9 | 10 | 10 | 9 |
| Größe | 1 | 1 | 1 | 1 |
Nach dem Training stoßen Kinder (und das Modell) auf ein neues Objekt mit dem neuen Nomen „dax“.
Aufgabe: Welches der drei Kandidatenobjekte mit unbekannter Kategorie ist am wahrscheinlichsten ein dax?
Data based on Smith et al. (2002)
Test